热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AI纪事|深度学习保护濒危语言

2010年,孟加拉湾安达曼群岛中一位名叫BoaSenior的老人去世了。图片来源于网络|她是当地Aka-Bo部族语言的最后使用者,她去世之后࿰

2010年,孟加拉湾安达曼群岛中一位名叫 Boa Senior 的老人去世了。

图片来源于网络 |

她是当地 Aka- Bo 部族语言的最后使用者,她去世之后,世界上就再也没有这种语言的印记了。

 

几十年前,Boa 的父母先她而去,她失去了这种部族语言的最后两个交流者,这让她感到异常孤独。她不得不花几年的时间学习印地语,以便与当地人交流。

 

类似的文化悲剧正在当今世界频繁发生。根据联合国相关组织统计,全世界平均每两个星期就有一门语言彻底消失!按照这个速度,专家预计至本世纪末,全球50%~90%的语言将会消亡。

1

如果在不查资料的情况下,你能想起哪些语言?

 

汉语、英语,其他如法语、西班牙语、德语、俄语、阿拉伯语、日语、意大利语、韩语等都有很高的知名度,他们各自都拥有数千万乃至数亿的使用者,他们是语言学世界里的“巨无霸”。

 

据统计,全世界共有六千余种语言,而这些语言的使用情况差异极大。其中,96%的语言其使用者数量之和不到全球人口的4%,只有不到20%的语言在学校和互联网上使用。

世界上80%的网页是英语网页,数以千计的语言基本上进入不了教育体系、新闻媒体和出版物。

 

在这些语言中,有一些由于使用人数极少,面临着变成“死语”的危险。研究显示,全球有近2500种语言处于濒危状态,在联合国绘制的《全球濒危语言分布图》中,代表着危机的红色标记几乎布满世界各地:

图片来源于网络 |

图中我们可以看到,排名前三位的国家分别是印度、美国和印度尼西亚,这些国家各有一百多种语言面临消亡的危险。

 

早在20年前,美国知名语言学家迈克尔·克劳斯教授在美国语言学会中说:

如果有一天,地球上90%的人类语种灭绝了,那么语言学就是历史上惟一一门看着自己消失的学科。

中国的濒危语言情况也不容乐观。

我国共有120余种语言,其中有一半以上的语言使用人数不到10000人,面临消亡的风险。在这些语言里,有22种语言使用人数不到1000人,有7种语言的使用人数甚至不到100人,处于联合国划分标准的“极度濒危”一档。

 

几年前,台湾97岁的原住民潘金玉去世,巴则海语随之消亡。贵州的木佬语目前仅有一个90多岁的老人会说。云南的子君语也只有十几个老年人会说。

 

潘金玉 |

还有很多语言,已经基本消失在历史的长河中,如赫哲语、塔塔尔语等。甚至一些当年曾经兴盛过的语言也处于消亡的边缘。我国满族人口上千万,会讲满语的人却不足千人,已经丧失了社会交际功能。

2

图片来源于网络 |

在科幻电影《降临》中,人类接触到一种外星人,两个文明间在尝试沟通时,人类的语言学家们发现,这些外星人使用的语言并没有先后顺序,在书写一句话时,每个字母的书写都是同时进行的。

后来人类科学家们才发现,这些外星人的时间观念与人类迥然不同,他们没有时间流逝的概念,他们知道未来的一切,所以他们感觉不到时间上的先与后,任何表述都是同时的,没有先后顺序的。这种奇特的语言,是他们世界观的体现。

 

这部科幻电影的情节虽然是虚构的,但却揭示了一个具有普遍意义、毋庸置疑的主题:每一种语言都是一个独特的认知成果,是一个族群独一无二的世界观的体现。当我们学习一门语言时,我们学习的绝不仅仅是简单的交流工具,而是一个族群知识体系的结晶。

在英语如此强势的今天,以英语为母语的国家也没有放弃外语教学,他们的学生在学校中依然将外语作为必修科目,可能是法语、西班牙语,也可能是德语、汉语。

因为多学习一门语言就多一个观察世界的窗口,多掌握一门语言就多了解一种人类独特的集体思维成果、多体验一个民族的传统文化。

 

这只是语言与其文化意义的一个缩影——当我们失去一门语言时,我们失去的绝不仅是一套符号系统,而是与之相关的族群历史,风俗习惯,文化信仰等等一切精神文明的成果。如果出于交流的便利而放任语言的消失,是对人类文明的不负责任。

 

3

当前学术界意识到了濒危语言问题的重要性,积极倡导各国语言学家对本国语言、尤其是濒危语言加以关注,并采取具体的行动进行口语记录、语言典藏。

2003年英国伦敦大学开展了对全球濒危语言进行深度典藏的国际项目,2004年中国开始参与到项目之中,中国社会科学院民族学与人类学研究所的徐世璇教授是中国参与国际濒危语言典藏项目的第一人。土家语的保存,是徐教授所负责的主要项目之一。

图片来源于网络 |

土家语是我国土家族世代相传的语言。土家族是我国众多的少数民族之一,分布广泛,人口众多,遍布于湖南、湖北、重庆和贵州交界的大片地区,人口超过800万。

 

土家语属于汉藏语系中的藏缅语族,有语言,无文字,口语中包含大量的历史传说、民间故事、颂辞山歌,例如被列入国家非物质文化遗产、独具特色的摆手歌、哭嫁歌、梯玛歌等等。除了传统习俗,土家族的宗法、饮食、草药等多种民族文化也蕴含在土家语的口语中。

图片来源于网络 |

 

但是具有丰富文化内涵的土家语,现在的使用情况却很不理想。在几百万人口的土家族中,母语在绝大多数人中已经失传,懂本民族语言的人大约只占0.6%,其中南部方言只剩几百人,而且都是年龄很大的老人,青少年基本已经全体发生语言转用,土家语的代际传承中断,处于濒临消亡的危机状态。

 

基于这种情况,土家语成为濒危语言保存计划的重点内容之一。

 

世界各国的濒危语言保存,都面临一个问题——仅仅通过录音记录还是进行全面典藏?

 

录制一种语言的语音,在高新技术普及的当代并不困难。只要在还有人会说的时候对他们的讲话进行录音,保存起来就可以了。但这并不能阻止其变成死语,因为当使用者都去世后,就没有人能再听懂这些录音。

而语言典藏,不仅需要对这种语言录音,还要对录下的所有语音进行记音、标注、理解和翻译,以使这些录音成为表达具体意义、具有丰富内涵、能够被人们理解的语言。而这一部分工作难度远远大于单纯的录音。

 

徐教授认为,如果只是录音,土家语中所蕴含的文化意义都将丧失,既然保存一种语言,就要再现这种语言的整体面貌,要让后人能够理解其语意,了解语言中蕴含的文化内容。

 

但语言典藏的困难程度远超过常人想象,具体做起来需要分为几步。

第一步,标音。因为土家语没有文字,首先需要对录音进行听辨,将每个音节的录音用国际音标的形式写下来,把声音变成书面符号记录下来。

第二步,释义。需要用汉语对记录的国际音标符号进行逐字逐词的对译,让人明白土家语的字词含义。在此基础上依据语言学理论归纳音位系统、分析语法规律,建构起与土家语客观实际相符的语言体系,把单独的字词装入已建立的语法模式中,使其成为符合土家语语法规则的句子,这样才能完成对土家语长篇语料的翻译。但这两部分,任务都极其艰巨。

 

第一步的听辨部分,需要经过专门训练、具有听音、辨音、记音专业技能的语言学师生或母语人对录音资料进行听音和标注。任何一门语言的内容都是独特的,而能用国际音标标音的人才非常少有,而且人工记录速度十分缓慢。

 

而对译和翻译部分,则需要既懂母语又懂汉语的双语人承担,与此同时还需要了解语法结构,以便按照土家语的语法规则正确理解意义,准确地进行翻译,工作量也极其巨大。

 

语言典藏中的这些难关需要借助于新的技术和方法来攻克,徐教授找到了北京工商大学计算机学院的于重重教授。人工难以解决的问题,用技术来解决。

 

“用人工来标记国际音标,工作量惊人的浩大。在语言典藏中对录音的国际音标记音、标音、乃至于翻译,仅仅靠人力完成会非常困难。”于教授说。

于教授和他们的学生们希望能够用技术手段来解决这个问题。就在此时,PaddlePaddle 出现了。

4

PaddlePaddle 是集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台,已经被中国企业广泛使用,并拥有活跃的开发者社区生态。

PaddlePaddle 源于产业实践,深度契合企业实际应用需求。提供最丰富的官方支持模型集合 ,输出最强的超大规模并行深度学习平台能力 ,并推出全流程、全类型的高性能部署和集成方案 ,供广大开发者使用。

 

上线一段时间以后,PaddlePaddle 在外卖的预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、病毒和垃圾信息检测、机器翻译和自动驾驶等领域皆有成就,而于教授所需要的,正是 PaddlePaddle 在语音数据处理中的能力。

 

于教授团队通过改进已有的 AI 算法,利用语言学家标注的数小时语音数据训练了土家语语音识别系统,这样能够为后续收集到的语料来进行标音。以往一个人工作几小时的工作量,电脑用算法标一遍只需要几秒钟。

 

“目前我们在百度 PaddlePaddle 平台上实现的算法准确率已经达到了70%,基本与人工标注没有太大差距。当然,目前识别系统还不够完善,仍需语言学家对系统标注的结果做校正,但是效率已提高了几个数量级。AI 算法的应用,让我们有效地克服了标音工作量巨大的困难。于教授说。

 

在标音之外,团队也开始用 AI 协助意译工作。

 

团队成员们根据徐教授整理和总结的土家语300个核心词、2000余个扩展词和土家语基本语法,搭建了土家语语言模型的基本算法,将语法和词汇融入进语言模型中。

 

语言模型的建立,建立了土家语翻译的基本框架,在未来的工作中,团队成员们需要做的是对语言模型的完善。数据越多,模型越完善,准确率也就越高。

于教授预计,未来三到五年中,土家语的语言模型可以达到一个相当完善的程度,到那时,人们可以完全凭借 AI 完成土家语的汉语翻译,这门语言哪怕没有人再使用,也只会被“冻结”,而不会“消亡”,因为我们已经能充分掌握关于这门语言的一切。

 

于教授说:“在濒危语言典藏的过程中,语言学界的老师们都付出了巨大的努力,而且工作十分辛苦。有些老师动员自己的爱人协助自己的工作,有些老师甚至为了工作而忽略了孩子的学业,但庞大的工作量让学者们必须这样努力。濒危语言典藏需要帮助,而科技可以极大地改变我们的工作方式。

 

5

 

于教授坦言,濒危语言典藏的商业价值不大,她之所以愿意付出巨大的努力来配合,是因为她认为这项事业很有意义。

 

对于土家语的典藏,只是中国几十种濒危语言资源保护工作中的一小步,却是所有濒危语言资源保护工作的一个榜样。于教授说,用 AI 对语料进行标音和模型构建,这种方法也适用于所有濒危语言的典藏。

 

而百度的 PaddlePaddle 平台,也愿意为所有的文化保护工作者提供帮助。中国国内有几十种语言面临消亡风险,濒危语言资源保护工作任重道远。如果能够用 AI 为每种濒危语言建立语言模型,对我国民族文化保护的贡献是难以估量的。

 

2010年,美国播放了一部纪录片叫《我们仍然住在这》(We Still Live Here),讲述了一种已经消失百年的美洲原住民语言“万派诺亚格语”经过一名叫杰西.白瑞德的学者的研究,在消亡百年后重新复活,杰西因此获得了凯尔特人球队赠予的“我们中的英雄”奖章。

 

在土家语典藏项目完成后,相信即使在百年后,人们也依然可以查阅、理解关于土家语的所有资料,土家语不会消失于人类文明的花园中。

 

科技进步让我们拥有了强大的能力,通过人与科技的合作,能够让每个民族的精神财富都得以保留。希望在中国的未来,当我们回望过去时,不会因任何一种民族文化的消亡而感到遗憾。

PaddlePaddle 不仅为我们守护了濒临消失的土家语,它能做的还有更多!首届 WAVE SUMMIT 2019 深度学习开发者峰会昨天在北京正式启幕!数千位的开发者与 AI 专家、学者一道见证了国内真正意义上第一场深度学习开发者盛会。

会上,百度高级副总裁、深度学习技术及应用国家工程实验室主任王海峰表示,“深度学习推动人工智能进入工业大生产阶段,而深度学习框架是智能时代的操作系统。”

此外本届大会上,百度深度学习技术平台部总监马艳军首次对外公布了 PaddlePaddle 全景图,集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,囊括支持面向真实场景应用、达到工业级应用效果的模型,针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎等。

除此之外,还重磅发布11项新特性及服务,包含 PaddleNLP、视频识别工具集、Paddle Serving、PaddleSlim、AutoDL Design 等多种深度学习开发、训练、预测环节的“硬通货”。

现场还宣布了“1亿元” AI Studio 算力支持计划,助力开发者成功。并首次公布 PaddlePaddle 中文名“飞桨”。

在本次大会上,不仅有传授深度学习的公开课,还有“实战过招”的开发者市集,一次性满足了深度学习开发者从“心法招式”到“当面切磋”的需求。

我们希望这场由数千名开发者组成的深度学习开发者峰会,能够加速深度学习技术的发展和产业应用,让科技的力量走进千家万户和大小企业中!


推荐阅读
author-avatar
手机用户2702935720
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有